[新サービス] 分析と人工知能(AI)をシンプルに統合化したデータレイクハウス、Amazon SageMaker Lakehouse が発表されたので実際に試してみました #AWSreInvent
AWS事業本部コンサルティング部の石川です。re:Invent 2024のキーノートにて、分析と人工知能(AI)を簡素化する統合された、オープンで安全なデータレイクハウスである Amazon SageMaker Lakehouse を発表しました。本日は、Amazon SageMaker Lakehouseのご紹介とドメインやプロジェクトを作成してクエリを実行できるまでを実際に試してみました。
あくまでも今日時点の話ですが、従来のアナリティクス関連サービスは、Amazon SageMaker Unified Studio(プレビュー)という統合環境にまとめられ、Amazon SageMaker platformと呼ばれるようになります。一方、AI/MLのサービスであるこれまでのAmazon SageMaker は、Amazon SageMaker AIと呼ばれるようになります。
Amazon SageMaker Lakehouseとは
データはデータレイク、データ ウェアハウス、さまざまなアプリケーションに分散しており、データサイロが生まれています。これは、データの重複、複雑なパイプライン、コスト増加を引き起こします。さらに、データの保存方法によって使用可能なツールが制限され、データ操作の自由度が低下します。また、一貫性のないデータアクセスが、適切な意思決定を妨げています。
そこで登場したのが、Amazon SageMaker Lakehouseです。Amazon SageMaker Lakehouseは、分析と人工知能(AI)を簡素化する統合された、オープンで安全なデータレイクハウスです。この機能は、Amazon S3データレイクとAmazon Redshiftデータウェアハウスにまたがるすべてのデータを統合し、単一のデータコピーで強力な分析およびAI/MLアプリケーションの構築を支援します。
このソリューションにより、ユーザーは複数のデータストアを管理する必要がなくなり、データの一貫性が向上し、コストが削減されます。さらに、データサイエンティストやアナリストは、データの所在を気にすることなく、より効率的に作業を進めることができるようになります。
SageMaker Lakehouseの特長
データの統合
- Amazon S3データレイクとAmazon Redshiftデータウェアハウスのデータを統合
- 単一のデータコピーで強力な分析とAI/MLアプリケーションを構築可能
柔軟なデータアクセス
- Apache Icebergと互換性のあるすべてのエンジンとツールでデータにアクセス可能
- 既存のデータレイクやデータウェアハウスからのシームレスなデータアクセス
セキュリティとコラボレーション
- 細かい権限設定を一元的に定義し、複数のAWSサービス間で適用可能
- データ共有とコラボレーションの簡素化
多様なデータソースとの統合
- Amazon Aurora、Amazon RDS for MySQL、Amazon DynamoDBなどの運用データベースからのゼロETL統合
- SalesforceやSAPなどのアプリケーションとの連携
Amazon SageMaker Lakehouseを試してみる
Amazon SageMaker platformへ
SageMaker Lakehouse は、Amazon SageMaker Unified Studio(プレビュー)コンソール を通じて利用できます。Amazon SageMaker Unified Studio(プレビュー)コンソールは、サービス検索から 「Amazon SageMaker platform」 と入力するとリンクが表示されます。
Amazon SageMaker Unified Studio(プレビュー)から Unified Studio Domainを作成
Amazon SageMaker platformを選択すると、 Amazon SageMaker Unified Studio(プレビュー) は、Unified Studio domain と Amazon DataZone Domainがあることが確認できます。
最初に Unified Studio domainの作成は必要なため [Create a Unified Studio domain]をクリックします。
今回は、Quick setup を選択して作成します。Quick setup といってもVPC/Subnetは事前に作成して指定します。
ドメインの作成に成功すると下記のダイアログが表示されます。[統合スタジオ] ボタンを押すと統合スタジオ(Unified Studio)をに入ります。
なお、下記のように登録が完了するとドメイン一覧に追加されます。私の環境の場合、domain-12-04-2024-141902がSageMaker Studio Domain、data-voyageがDataZoneのドメインです。
通常は以下の画面から統合スタジオ(Unified Studio)に入ることになるでしょう。
統合スタジオ(Unified Studio)からプロジェクトを作成
統合スタジオ(Unified Studio)を開きます。最初に[プロジェクトを作成]を押してプロジェクトを作成します。
プロジェクト名は、LakeHouse_Projectとします。今回は、Amazon SageMaker Lakehouseのプロジェクトなので、プロジェクトのプロファイルはSQL analytics を選択します。
今回はそのまま、[continue]を押して進みます。
Lakehouse Databaseは、Glueのglue_db、アドホッククエリを実行するAthenaのworkgroupはworkgroupになります。 [プロジェクトを作成]を押してプロジェクトを作成します。
作成が開始されます。
プロジェクト作成が終わったのですが、エラーが出ました。今回はIAMユーザー(SIGN IN WITH IAM)であり、SSO(SIGN IN WITH SSO)ではないのでIAM Identity Centerのエラーは無視して進めます。(しかし、画面遷移するたびに表示される)
作成されたブロジェクトの画面は、以下のとおりです。
プロジェクトが作成で作成されたリソース
プロジェクトが作成したことで、以下のリソースが作成されました。
- Glue のデータベース: glue_db_<ハッシュ>のデータベースが作成されました。しかし、従来のAWS Glueからこのデータベースは参照できない
- Athena のworkgroup: workgroup-<ハッシュ>のワークグループが作成されました。
- Redshift Serverless: redshift-serverless-namespace-<ハッシュ>のNamespaceやWorkgroupが作成されました。
- CodeCommit: datazone-<ハッシュ>のリポジトリが作成され、プロジェクトファイルがPushされています。
データ
Lakehouseのデータソース(AwsDataCatalog)、データベース(glue_db_<ハッシュ>)が確認できます。
コンピューティング
[Data warehouse]タブには、プロジェクト時に作成されたRedahift Serverlessのみが表示されています。[Data analytics]タブにはEMR on EC2 cluster や EMR Serverlessが追加できます。
メンバー
[メンバー]タブは、このプロジェクトに参加するメンバーです。IAMユーザー、IAMロールの追加を試みましたがメンバーが検索できないため、追加ができないようです。SSO(SIGN IN WITH SSO)のユーザーなら追加できるのかもしれません。
Lakehouseのクエリ実行
では、プロジェクトのトップ画面に戻り、[Data processing and SQL analytics] の [Create SQL query] を押して、プロジェクトを選択、[Continue]ボタンを押します。
Lakehouseのクエリエディタが表示されます。以下の例では、LakehouseのCONNECTIONに Athena (Lakehouse) 、CATALOGに AwaDataCatalog 、DATABASEに glue_db_<ハッシュ> を選択しています。
上記の設定が終わると、クエリが実行できるようになります。
最後に
Amazon SageMaker Lakehouseは、データ分析とAI/MLの世界に革新をもたらす統合プラットフォームとして登場しました。この新しいサービスは、データレイクとデータウェアハウスの境界を取り払い、単一のデータを複製や移動することなくデータ分析とAI/MLアプリケーションの構築を可能にします。
実際に試してみると、プロジェクトの作成からクエリの実行まで、直感的に操作できることがわかりました。Amazon S3、Amazon Redshift、AWS Glue、Amazon Athenaなどを中心に、複数のAWSサービスを統合することで、データサイエンティストやアナリストは、データの所在を気にすることなく効率的に作業を進められます。
セキュリティと柔軟性を兼ね備えたAmazon SageMaker Lakehouseは、企業のデータ戦略を大きく前進させる可能性を秘めています。
合わせて読みたい